Быстрый старт: Mistral-7B On-Premise

Это руководство покажет вам, как развернуть модель вывода Mistral-7B на одном GPU A100-40GB с Compressa LLM.

GPU A100-40GB позволяет разместить Mistral-7B без квантизации.

Для примера мы будем использовать версию Mistral-7B openchat/openchat-3.5-0106.

Развертывание Compressa

Первым шагом необходимо развернуть Compressa в соответствии с инструкцией.

Предположим, что Compressa развернута на порту 8080, вы можете использовать REST API менеджера по адресу http://localhost:8080/api для загрузки и развертывания модели.

Полная информация о менеджере API доступна в инструкции или на странице Swagger по адресу http://localhost:8080/api/docs.

Загрузка модели

примечание

Если вы развертываете Compressa в частной сети без доступа к интернету, этот шаг можно пропустить. Пожалуйста, используйте инструкцию для загрузки ресурсов перед развертыванием.

Вы можете загрузить модель, используя следующую команду curl:

curl -X 'POST' \
    'http://localhost:8080/api/v1/models/add/?model_id=openchat%2Fopenchat-3.5-0106' \
    -H 'accept: application/json' \
    -d ''

Кроме того, можно загрузить модель напрямую со страницы Swagger, нажав Try it out: Add model

Модель будет загружена в течение нескольких минут.
Процесс можно отслеживать через лог консоли или с помощью API.

Развертывание модели

Вы также можете развернуть модель, используя следующую команду curl:

curl -X 'POST' \
    'http://localhost:8080/api/v1/deploy/' \
    -H 'accept: application/json' \
    -H 'Content-Type: application/json' \
    -d '{
        "model_id": "openchat/openchat-3.5-0106"
    }'

Или напрямую со страницы Swagger: Deploy model

Развертывание займет менее минуты.

Доступ к модели

После развертывания модели, она будет доступна по адресу http://localhost:8080/chat:

Chat

и через API, совместимый с OpenAI, по адресу http://localhost:8080/v1/completions:

Быстрый старт: Mistral-7B On-Premise

Развертывание Compressa​

Загрузка модели​

Развертывание модели​

Доступ к модели​

Развертывание Compressa

Загрузка модели

Развертывание модели

Доступ к модели